3.9 A Note About Feature Selection During Model Selection

データの正規化や特徴量選択

we typically perform these operations inside the k-fold cross-validation loop in contrast to applying these steps to the whole dataset upfront before splitting the data into folds

「私たちは典型的には、フォールドに分ける前にデータセット全体に正規化や特徴量選択や適用するよりも、k交差検証のループの内側でこれらの操作を実施する」

📝 まとめて1回ではなく、個々のモデルごとに実施

交差検証ループの内側での特徴量選択は過学習となるbiasを減らす

テストデータの情報が訓練ステージにしみ出さないから

（全データを正規化・特徴量選択するとテストデータの情報も使っているということ！）

しかし、交差検証ループの内側での特徴量選択は、過度に悲観的な見積もりに導くかもしれない

訓練に使えるデータが少ないため

詳細な議論は Refaeilzadeh et al. 2007 （積ん読）On comparison of feature selection algorithms